Przejdź do zawartości

Dummy coding

Z Wikipedii, wolnej encyklopedii

Dummy coding – w statystyce jest to metoda kodowania danych nominalnych (jakościowych) za pomocą wartości 0 i 1 w celu ich analizy statystycznej, np. w analizie regresji. Tak stworzone nowe zmienne binarne (zero-jedynkowe) nazywane są zmiennymi sztucznymi (ang. dummy variables)[1][2].

Przykład zastosowania: związek między płcią (wartości: kobieta i mężczyzna) a trybem studiów (wartości: stacjonarne i niestacjonarne) możemy obliczyć za pomocą wzoru na współczynnik fi. Można jednak osiągnąć ten sam efekt (czyli obliczyć siłę związku pomiędzy płcią i trybem studiów) za pomocą współczynnika korelacji liniowej Pearsona, jednak wcześnie trzeba zastosować dummy coding. Zmienną płeć przekształcamy na dane liczbowe: wartość kobieta jest kodowana za pomocą 0, wartość mężczyzna1. To samo robimy ze zmienną tryb studiów: wartość stacjonarne zamieniamy na 0, wartość niestacjonarne zamieniamy na 1.

Przypisy

[edytuj | edytuj kod]
  1. Aurélien Géron, Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow, Krzysztof Sawka (tłum.), Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020, s. 88, ISBN 978-83-283-6002-0 [dostęp 2024-06-28].
  2. Alicja Grześkowiak, Piotr Peternek (red.), Zastosowanie metod ilościowych w ekonomii i finansach, Debiuty Studenckie 2023, Wrocław: Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, 2023, s. 18, ISBN 978-83-67899-09-3 [dostęp 2024-06-28].

Bibliografia

[edytuj | edytuj kod]
  • Kenneth S. Bordens, Bruce B. Abbott, Research Design and Methods. A Process Approach, Seventh Edition, McGraw-Hill, New York 2008, s. 380.
  • UCLA